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摘要 : [目的 /意义 ] 义 大 数据 环境 下 的 文本 情感 分 析 这 一 特定 任务 为 目的 ,对 规模 适 配 问题 进行 研究 ,为 


情报 学 领域 研究 人 员 进 行 大 数据 环境 下 数据 分 析 时 ,实现 效率 和 成 本 的 最 优选 择 提供 借鉴 。[ 方 


法 /过 程 ] 采 用 


斯 坦 福 大 学 Sentiment140 数据 集 , 在 对 传统 情感 分 析 算 法 分 析 的 基础 上 ,提出 了 5 种 面向 大 数据 的 文本 情感 分 

析 算 法 ,检验 各 种 算法 在 不 同 环境 和 数据 规模 下 的 适 配 效果 ,从 准确 性 \ 可 扩展 性 和 效率 等 方面 进行 实证 比较 
完 。[ 结果 /结论 ] 实验 结果 显示 ,本 文 所 搭建 的 集群 具有 良好 的 运行 效率 、 正 确 性 以 及 可 扩展 性 ,Spark 集群 

= 情感 分 析 数 据 时 更 具有 效率 优势 , 且 在 数据 规模 越 大 的 情况 下 ,效率 优势 越 明 显 ;在 资源 利用 


合作 , 随 着 节点 数 和 核 数 的 增加 ,集群 的 整体 运行 效率 变化 显著 ,配置 5 个 4 核 4G 内 存 的 从 节 


完成 分 类 任务 的 同时 这 到 节约 资源 成 本 的 效果 。 
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点 ,能 够 实现 在 


情感 分 析 机 器 学 习 算法 


随 着 移动 互联 网 技术 的 不 断 发 展 , 人 们 通过 网 络 
进 答 社 交 购物 等 活动 产生 的 数据 量 呈 爆炸 式 增长 , 越 
来 走 多 的 用 户 在 微 博 、Twitter 等 社交 媒体 平台 上 发 表 
了 钊 娱乐 .政治 等 事件 的 观点 ,而 这 些 观点 通常 以 文本 
为 载体 进行 传播 , 如 何 高 效 地 挖掘 海量 文本 所 殖 含 的 
情感 信息 对 企业 和 政府 来 说 都 是 新 的 机 遇 和 挑战 ” 。 

情感 分 析 是 一 种 通过 机 器 学 习 自 动 识别 用 户 生成 
内 容 , 来 判断 用 户 对 实体 (如 产品 人物 .主题 .事件 
等 ) 的 积极 消极 或 中 立意 见 的 过 程 。 在 目 i 


人 员 如 何 将 传统 的 情感 分 析 算 法 扩展 到 大 数据 环境 ; 
情感 分 析 算 法 在 不 同 运 行 环境 下 ,其 运行 效率 具有 何 
种 差异 ,在 实际 工作 中 如 何 选择 和 配置 最 优 环境 。 在 
上 述 背 景 下 ,规模 适 配 问 题 与 领域 适 配 问 题 " ”和 语 
言 适 配 问题 ” 相 并 列 ,成 为 大 数据 环境 下 观点 挖掘 所 
面临 的 三 大 严峻 挑战 ”1。 

值得 说 明 的 是 ,在 解决 情感 分 析 的 规模 适 配 问 题 
上 ,目前 相关 研究 仍然 较 多 地 集中 在 计算 机 科学 领 
域 ""。 在 情报 学 等 领域 ,情感 分 析 的 规模 适 配 问题 
尚未 引起 足够 的 重视 。 鉴 于 此 ,本 文 在 对 传统 情感 分 


用 的 数据 集中 ”, 评 论 数量 规模 仍然 相对 较 小 。 

ee 
机 物理 资源 进行 分 布 式 并 行 计算 ,情感 分 析 的 规模 适 
配 问题 成 为 了 其 所 面临 的 瓶颈 。 例 如 , 当 数据 规模 扩 
展 到 10 万 .100 万 或 者 1 000 万 时 ,情感 分 析 方法 在 准 
确 度 召回 率 和 效率 等 方面 是 否 会 发 生变 化 ;情报 工作 


析 算 法 分 析 的 基础 上 ,提出 面向 大 数据 的 文本 情感 分 
析 算 法 ,检验 各 种 算法 在 不 同 环境 和 数据 规模 下 的 适 
配 效果 ,从 准确 性 .可 扩展 性 和 效率 等 方面 进行 实证 比 
较 研 究 , 以 期 为 相关 领域 研究 人 员 开 展 大 数据 环境 下 
的 文本 情感 分 析 ,实现 效率 和 成 本 的 最 优选 择 提 供 借 
鉴 
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图 二 情报 三 作 
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A 和 革 
ChinaXiv 合 作 期 刊 


2 研究 现状 


情感 分 析 在 不 同 数据 规模 上 的 研究 重点 不 同 。 在 
小 规模 数据 集 上 ,情感 分 析 的 研究 重点 是 提升 分 析 粒 


~ 


资源 配置 三 方面 影响 ,其 评估 方式 以 比较 不 同 分 类 入 
法 的 准确 度 和 加 速 比 为 主 。 例 如 ,G，Mogha 等 ' 引 比较 
了 单机 Spark 中 决策 树 .朴素 贝 叶 斯 随机 和 森林 和 支持 


度 , 尽 可 能 在 更 细 粒 度 上 进行 情感 分 析 , 并 将 其 扩展 到 
更 多 的 应 用 场景 中 。 在 大 规模 数据 集 上 ,通常 直接 采 
用 统计 学 习 的 方式 来 解决 情感 分 析 问 题 ,其 重点 在 于 
机 器 学 习 算法 的 改进 及 其 并 行 化 实现 。 

在 小 规模 数据 集 上 ,文本 情感 分 析 的 实际 应 用 包 
括 面 向 情感 词汇 的 应 用 、 面 向 机 器 学 习 的 应 用 和 面向 
扩展 的 应 用 等 。 在 面向 情感 词汇 的 应 用 方面 ,主要 通 
过 抽取 文本 中 的 情感 词汇 及 其 对 应 的 评价 实体 等 ,并 
在 此 基础 上 进行 情感 极 性 判断 ,包括 情感 词典 方法 ,本 
体 方法 和 信息 抽取 方法 等 。 情 感 词典 方法 通过 情感 词 
典 判断 文本 中 词 的 情感 倾向 从 而 对 文本 倾向 进行 分 
中 ;本 体 方法 通过 形式 化 定义 概念 及 概念 之 间 的 
美 约 ,以 提高 模型 的 识别 效果 “-” ;信息 抽取 方法 则 
是 便 用 自动 化 方法 抽取 情感 词 ,从 而 进行 情感 分 
本 ”。 这 些 研究 通常 粒度 较 细 , 且 需要 较 多 的 人 工 
做 刁 ,因而 适用 于 规模 较 小 的 数据 。 面 向 机 器 学 习 的 
针 , 则 跳 过 较为 繁琐 的 情感 词汇 构建 过 程 , 而 直接 采 
用 红 计 学 习 方式 来 解决 情感 分 析 问题 “*2 29 。 由 于 
避 席 了 较为 繁琐 的 情感 词汇 构建 过 程 ,因而 更 容易 适 
配 到 规模 较 大 的 数据 集 。 在 扩展 应 用 方面 ,目前 情感 
个 朴 在 客户 评论 挖掘、 网 络 与 情 管理 ”| 顾客 满 
意 恬 调查 网络 谣 言 识别 和 竞争 对 手 识别 "等 


向 量 机 算法 在 航空 公司 数据 集 上 分 类 准确 性 ,结果 表 
明 决 策 树 分 类 效果 要 优 于 其 他 三 种 分 类 算法 。A. Bal- 
tas 等 趾 在 Spark 平台 中 采用 MLlib 对 Twitter 数据 进行 
情感 分 析 ,对 于 二 元 和 三 元 情感 数据 ,朴素 贝 叶 斯 的 分 
类 效果 优 于 逮 辑 回归 和 决策 树 , 同 时 数据 集 大 小 对 朴 
素 贝 叶 斯 分 类 效果 影响 显著 。M.， Hai 等 ” 研究 在 集 
群 Spark 中 朴素 贝 叶 斯 和 随机 森林 两 种 分 类 算法 的 不 
同 表现 ,并 给 出 不 同 数据 集 对 应 的 最 佳 Spark 节点 数 
量 ,结果 表明 两 种 分 类 算法 的 准确 率 都 很 高 , 且 对 于 不 
同 大 小 的 数据 集 , 加 速 比 最 大 时 节点 数量 不 同 。 

在 上 述 背景 下 ,本 文 以 Spark 平台 作为 基础 ,尝试 
研究 不 同情 感 分 析 算 法 在 不 同 规模 数据 集 .不 同 集群 
配置 条 件 下 的 计算 效率 准确 性 和 可 扩展 性 ,以 期 为 相 
关 领 域 的 大 数据 分 析 人 员 合 理 选择 算法 和 配置 平台 提 
供 建 议 ,实现 效率 和 成 本 的 最 优选 择 。 


3 ”研究 问题 与 研究 方法 


3.1 研究 问题 

本 文人 研究 大 数据 环境 下 文本 情感 分 析 算 法 的 规模 
适 配 问题 , 即 在 领域 和 语言 相同 的 情况 下 ,通过 对 传统 
情感 分 析 算 法 进行 分 析 , 提 出 面向 大 数据 的 文本 情感 
分 析 算 法 ,检验 在 不 同 环境 和 不 同 数据 规模 下 的 适 配 


情报 领域 得 到 了 广泛 应 用 ,对 具体 应 用 场景 的 依赖 程 
度 局 于 数据 规模 和 算法 。 

“在 大 规模 数据 集 上 ,目前 研究 一 是 侧重 情感 分 析 
算法 理论 的 纵向 创新 , 即 结合 大 数据 平台 ( 例如 Spark 
计算 框架 ) 对 算法 进行 改进 ,在 提高 分 类 效率 的 同时 保 
持 或 提升 分 类 准确 度 。 例 如 , 朱 继 召 等 ” 在 Spark 框 
架 中 设计 分 布 式 CRFs 算法 - SparkCRF 用 于 文本 分 
析 , 结 果 表明 SparkCRF 具有 良好 的 计算 能 力 和 扩展 性 
能 ,并 能 达到 与 传统 单 节 点 同 水 平 的 准确 率 。J Chen 
等 设计 了 Spark 平台 上 的 并 行 随机 森林 (PRF ) 算 
法 ,通过 在 训练 过 程 中 采用 降 维 方法 以 及 预测 过 程 中 
采用 加 权 投 票 方法 ,提高 了 算法 对 大 型 高 维和 噪声 数 
据 的 分 类 准确 性 ,结果 表明 PRF 算法 在 分 类 准确 性 和 
可 扩展 性 方面 优 于 Spark MLib 中 的 分 类 算法 。 二 是 
侧重 于 在 大 数据 平台 上 对 各 种 分 类 算法 进行 横向 比 
较 ,以 寻求 不 同 资源 配置 下 特定 文本 数据 的 最 优 分 类 
算法 ,此 时 分 类 效果 受 数据 属性 、 数 据 集 规模 及 Spark 
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效果 ,从 计算 效率 ,准确 性 和 可 扩展 性 等 方面 进行 比较 
分 析 。 具 体 而 言 ,本 文 提 出 以 下 研究 问题 : 

(1) 人 情感 分 析 算 法 在 不 同 运 行 环境 下 (传统 
Skleam 方式 ,Spark 单方 点 方式 和 Spark 集群 方式 ) ,其 
运行 效率 具有 何 种 差异 ; 相 比 Spark 单 节点 方式 和 传 
统 Skleam 方式 ,Spark 集群 方式 在 处 理 海量 情感 分 类 
数据 时 是 否 更 具有 优势 , 且 是 否 数 据 规模 越 大 ,优势 越 
明显 ;在 构建 大 数据 情感 分 析 平 台 时 ,如 何 根 据 上 述 差 
异 来 更 好 地 配置 运行 环境 。 

(2) 各 种 情感 分 析 算 法 在 不 同 运行 环境 下 ,其 运 
行 效果 ( 以 正确 率 、 召 回 率 、F 值 等 来 衡量 ) 具有 何 种 差 
异 ; 相 比 Spark 单 节 点 方式 和 传统 Sklearn 方式 ,Spark 
集群 方式 在 处 理 海量 情感 分 类 数据 时 是 否 具有 更 好 的 
效果 。 

(3) 随 着 节点 数 和 核 数 的 增加 ,集群 的 整体 运行 
效率 如 何 变化 ;在 配置 大 数据 情感 分 析 平 台 时 ,如 何 根 
据 上 述 变化 来 更 好 地 设置 最 佳 的 核 数 和 闻 点 数 ,以 通 
过 较 小 的 开销 来 获得 较 高 的 效率 。 


Chin 


, hinaXxjv 合 作 其 于 | 
余 传 明 ， 原 赛 ， 王峰， 等 . 大 数据 环境 下 文本 情感 分 析 算法 的 规模 适 配 研究 :以 Twitter 为 数据 源 [J. 图 名 请 洗 了 上 期 天 
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(4) 当 数 据 集 在 小 于 何 种 规模 时 ,并 行 式 算法 的 
运行 加 速 比 小 于 1, 即 采用 并 行 式 算法 采用 集群 处 理 
不 能 发 挥 其 计算 优势 ;换言之 , 当 情 感 分 析 的 数据 规模 
达到 何 种 程度 时 ,有 必要 采取 并 行 式 情感 分 析 算法 。 

本 文 之 所 以 强调 文本 情感 分 析 , 主要 基于 以 下 原 
因 :@@ 在 不 同 数据 规模 上 ,情感 分 析 的 研究 重点 有 所 不 
同 。 针 对 小 规模 数据 集 ,重点 在 于 提升 分 析 粒 度 并 将 
其 扩展 到 更 多 的 应 用 场景 ;针对 大 规模 数据 集 ,重点 在 
于 机 器 学 习 算 法 改进 及 其 并 行 化 实现 。 本 文 尝试 对 情 
感 分 类 算法 进行 改进 ,并 提出 其 并 行 化 实现 ,落脚 点 在 
于 情感 分 析 。@@ 尽 管 文本 情感 分 析 中 的 情绪 分 类 或 者 
正 负 倾向 性 分 类 都 可 以 归结 为 文本 分 类 问题 ,但 本 文 
以 Twitter 作为 数据 源 , 主 要 任务 仍然 是 情感 分 析 。 

3 癌 -大 数据 环境 下 的 文本 情感 分 析 平 台 构建 

ji 目前 ,分 布 式 计算 平台 包括 Spark、 Hadoop、 
GiidGain \、Mars 、 Phonenix 、 Twister、 Disco 、 HaLoop 、 1Ma- 
Rce ,iHadoop 、Prlter 和 Dryad 等 3 ” 相 比 于 其 他 
平 莉 ,Spbark 并 行 平台 采用 基于 内 存 的 迭代 处 理 操作 ， 
其 这 算 效 率 容错 性 和 可 扩展 性 更 好 ;Spark MLlib 库 中 
提 假 了 常用 的 机 器 学 习 算法 以 及 Python 编程 环境 , 便 
z 红 较 传 统 Sklearm 和 并 行 Spark 之 间 的 差异 。 鉴 于 
版 未 文 采用 Spark 体系 结构 ,并 在 此 基础 上 开展 实 
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验 。 


本 文 所 采用 的 大 数据 文本 情感 分 析 框架 见 图 1 ， 
系 疾 框架 包括 驱动 程序 ( Driver Program ) ,集群 管理 器 
( Cliister Manager) 和 工作 节点 (Worker Node) 三 个 组 
件 堂 。 驱 动 程序 是 一 个 定义 上 下 文 ( SparkContext ) 的 
客 加 端 程序 ,负责 向 群集 管理 器 请 求 资源 ,并 将 相应 的 
包 文 件 (jar 文 件 ) 以 及 配置 的 依赖 项 提交 给 工作 节点 。 
集群 管理 负责 分 配 资源 并 跟踪 提交 作业 的 状态 ,在 独 
立 运行 模式 (Standalone 模式 ) 中 作为 主 节点 ( Master 
Node) 控制 整个 集群 ,监控 工作 节点 ,作为 资源 管理 组 
件 。 工 作 节 点 又 称 从 节点 ,用 于 负责 控制 计算 节点 , 包 
括 任务 (Task) 和 缓存 ( Cache) ,通过 启动 执行 器 ( Exec- 
utor) ,计算 并 返回 相应 结果 。 

具体 而 言 ,本 文 相 关 的 实验 在 青云 服务 器 平台 进 
行 ,分 别 配 置 了 单机 和 集群 环境 ,具体 信息 如 表 1 所 
示 。 单 机 服务 器 配置 4 核 CPU 和 4G 内 存 , 并 用 Py- 
thon3.6 执行 传统 Skleam 方式 和 Spark 单 节点 运行 程 
序 ;集群 服务 器 由 四 种 节点 构成 ,Client 节点 配置 2 核 
CPU 和 26G 内 存 , 用 于 存储 本 地 数据 及 提供 程序 运行 
界面 ,其 计算 性 能 不 影响 集群 效率 ;HDFS 节点 同样 配 
置 2 核 CPU 和 26G 内 存 , 用 于 存储 Client 节点 的 用 户 上 
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传 数 据 并 为 集群 提供 底层 数据 存储 ,其 计算 性 能 同样 
不 影响 集群 效率 ; 主 节 点 配置 4 核 CPU 和 4G 内 存 , 在 
Standalone 模式 中 作为 资源 管理 组 件 控制 整个 集群 ,为 
便于 不 同和 运行 环境 比较 ,采用 与 单机 相同 配置 ;从 节点 
作为 集群 计算 节点 ,其 不 同 的 资源 配置 决定 了 情感 分 
析 算 法 的 效率 ,从 节点 个 数 变 化 范围 3 -7 个 ,并 根据 
实验 具体 需求 配置 内 存 为 4C, CPU 核 数 为 2.4 或 8 


个 


Me 


表 1 服务 器 平台 配置 信息 


”内存 / 核 数 / 系统 盘 /。 ， ， 
环境 角色 个 数 ”系统 Cc 个 c 软件 环境 
单机 单 节点 1 4 4 100 
集群 ES Spark 
集群 ”Client 节点 1 Eat 2 2 10 Par 

、 2;.2:0 
HDFS 主 节点 1 Server 六 2 10 
14 Hadoop 2.7.3 
主 节点 1 机 交 10 python3.6 
从 节点 7 4 2/4/8 10 


3.3 大 数据 环境 的 文本 情感 分 析 算 法 

本 文 在 决策 树 (DT) ,逻辑 斯 带 回 归 (LR) 、 朴 素 贝 
叶 斯 (NB) 、 随 机 森林 (RF) 和 支持 向 量 机 (SVM ) 的 基 
础 上 ,提出 并 行 决 策 树 算法 、 并 行 逻辑 回归 算法 、 并 行 
朴素 贝 叶 斯 算法 .并行 随 机 森林 算法 和 并 行文 持 向 量 
机 算法 。 之 所 以 选择 DT 等 算法 作为 研究 基础 ,主要 
基于 以 下 原则 :中 可 用 性 , 即 算法 在 传统 的 文本 情感 分 
析 中 得 到 广泛 应 用 ;可 扩展 性 , 即 算 法 能 够 扩展 到 大 
规模 数据 环境 ;3 可 比 性 , 即 算法 在 准确 性 和 效率 等 方 
面具 有 可 比 性 。 值 得 说 明 的 是 ,除了 本 文 所 采用 的 五 
种 分 类 算法 ,还 存在 其 他 的 并 行 分 类 算法 ,例如 梯度 提 
升 树 .多 层 感知 机 等 。 由 于 梯度 提升 树 中 多 个 弱 学 习 
器 之 间 存 在 依赖 关系 ,会 导致 并 行 训练 效果 不 佳 ;而 多 
层 感知 机 由 于 隐藏 层 的 非 凸 损失 函数 可 能 存在 多 个 局 
部 最 小 值 , 不 同 随机 权重 初始 化 可 能 导致 不 同 的 实验 
结果 ,此 外 多 个 超 参数 的 调整 不 利于 不 同 并 行 算法 的 
比较 ,因此 在 本 文 实验 中 未 加 以 采用 。 
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3.3.1 并 行 决策 树 算法 ”并行 决策 树 采 用 分 治 策略 ， 
通过 反复 迭代 将 原 有 问题 分 为 多 个 特征 相似 的 子 问题 
求解 ,并 行 决 策 树 生成 过 程 包括 三 种 机 制 , 即 最 优 属性 
计算 \ 树 节点 并 行 、 数 据 集 并 行 ”。 由 于 各 节点 属性 
独立 ,使 得 当前 节点 各 属性 信息 增益 可 有 不 同 处理 器 
计算 ,然后 由 主 处 理 器 统一 决策 出 最 优 属性 ;或 者 可 以 
将 分 配 到 不 同 处 理 器 的 各 属性 数据 综合 处 理 , 得 到 最 
优 属性 。 树 节点 并 行 指 依据 最 优 属 性 采用 并 行 化 操作 
将 树 节 点 划分 成 若干 子 节点 ,相互 独立 的 不 同 子 节点 
在 下 一 步 划 分 中 可 以 并 行进 行 。 对 于 不 同 处理 器 中 处 
理 的 数据 子 集 采 用 同一 决策 树 算法 处 理 , 将 分 类 模型 
保存 并 提供 给 其 他 处 理 器 后 续 使 用 。 在 文献 [36] 的 
基础 上 ,本文 提出 的 并 行 决 策 树 算法 如 算法 1 所 示 : 
T 算法 1 基于 Spark 的 并 行 决策 树 算 法 
过 栓 入 :数据 集 T 
1 从 HDFS 上 读 取 数据 集 并 转化 为 RDD 
忆 只 使 用 map 算 子 获得 情感 得 分 和 文本 向 量 
E 9 使 用 Tokenizer 算 子 将 文本 向 量 转化 为 词 向 量 
4 计算 词 向 量 的 TF-IDF ,其 中 特征 数 设 为 3 000 
5 获取 标签 列 和 特征 列 并 进行 索引 ,得 到 预 处 理 
数据 集 
6 将 预 处 理 后 数据 集 随 机 划分 ,其 中 80% 用 于 训 
0% 用 于 测试 ,并 设 随机 数 为 0 
7 使 用 最 大 树 深 为 10 的 决策 树 分 类 器 对 训练 数 
据 狐 合 ,并 记录 训练 时 间 
8 使 用 训练 模型 对 测试 数据 预测 分 类 ,并 输出 精 
度 < 准 确 率 、 召 回 率 及 Fl 值 
0 给 出 :情感 分 析 结 果 
3.3.2 ”并行 逻辑 回归 算法 并行 逻辑 回归 算法 主要 
基于 Bagging 抽样 实现 并 行 ,并 采用 有 限 内 存 LBFGS 
对 估计 系数 进行 加 速 优化 。Bagging 算法 可 以 生成 
具有 相同 权重 的 多 个 分 类 器 ,并 通过 多 次 投票 将 它们 
聚合 成 一 个 预测 器 ,预测 器 通过 整合 来 自 多 个 逻辑 回 
归 分 类 器 的 预测 结果 来 计算 一 个 实例 的 最 终 预 测 。 在 
文献 [12] 的 基础 上 ,本 文 提 出 的 并 行 逻辑 回归 算法 如 
算法 2 所 示 : 
算法 2 基于 Spark 的 并 行 远 辑 回 归 算 法 
输入 :数据 集 T 
1 从 HDFS 上 读 取 数据 集 并 转化 为 RDD 
2 使 用 map 算 子 获得 情感 得 分 和 文本 向 量 
3 计算 文本 向 量 TF-IDF 值 
4 使 用 zip 算 子 将 TF-IDF 向 量 和 情感 得 分 连接 并 
转化 为 LabeledPoint 类 型 
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5 将 转换 后 的 数据 集 随机 划分 ,其 中 80% 用 于 训 
练 .20% 用 于 测试 ,并 设 随 机 数 为 0 

6 使 用 最 大 和 迭代 步 长 为 1 000 的 逻辑 回归 分 类 器 
对 训练 数据 拟 合 ,并 记录 训练 时 间 

7 使 用 训练 模型 对 测试 数据 预测 分 类 ,并 输出 精 
度 、 准 确 率 、 召 回 率 及 上 ] 值 

输出 :情感 分 析 结 
3.3.3 并 行 朴素 贝 叶 斯 算法 “并 行 朴 素 贝 叶 斯 算法 
通过 将 训练 集 和 测试 集 分 配给 多 个 节点 进行 模型 构建 
与 分 类 预测 ” 。 首 先 计算 训练 集中 特征 项 在 各 类 中 
出 现 的 TF 以 及 每 个 特征 项 对 应 的 TF -IDF 值 ,然后 计 
算 每 个 类 别 的 先 验 概率 及 TF-IDF 总 和 ,以 及 每 个 类 
别 下 特征 项 的 条 件 概 率 , 生 成 并 行 朴素 贝 叶 斯 模型 ， 
最 后 根据 测试 集 和 输入 模型 计算 每 条 测试 文本 所 属 
类 别 的 条 件 概 率 , 得 到 最 终 分 类 结果 。 在 文献 [37 ] 
的 基础 上 ,本 文 提 出 的 并 行 朴 素 贝 叶 斯 算法 如 算法 3 
所 示 : 

算法 3 基于 Spark 的 并 行 朴素 贝 叶 斯 算法 

输入 ;数据 集 T 

1 从 HDFS 上 读 取 数据 集 并 转化 为 RDD 

2 使 用 map 算 子 获得 情感 得 分 和 文本 向 量 

3 使 用 Tokenizer 算 子 将 文本 向 量 转 化 为 词 向 量 

4 计算 词 向 量 的 TF-IDF ,其 中 特征 数 设 为 3 000 

5 获取 标签 列 和 特征 列 并 进行 索引 ,得 到 预 处 理 
后 的 数据 集 

6 将 预 处 理 后 数据 集 随机 划分 ,其 中 80% 用 于 训 
练 .20% 用 于 测试 ,并 设 随 机 数 为 0 

7 使 用 平滑 度 为 1 、 模 型 类 别 为 multinomial 的 朴素 
贝 叶 斯 分 类 器 对 训练 数据 拟 合 ,并 记录 训练 时 间 

8 使 用 训练 模型 对 测试 数据 预测 分 类 ,并 输出 精 
度 、 准 确 率 、 召 回 率 及 上 ] 值 

输出 :情感 分 析 结 
3.3.4 并行 随 机 森林 算法 ”并行 随机 森林 算法 分 两 
个 阶段 完成 。 第 一 阶段 训练 随机 森林 分 类 器 ,在 
Spark 中 将 向 量化 训练 集 转化 为 RDD 分 发 给 各 节点 ， 
各 节点 将 对 其 采用 Bagging 抽样 ,抽样 次 数 由 决策 树 棵 
树 决定 ;随后 对 抽样 样本 建立 决策 树 ,通过 union 算 
子 将 分 散 的 决策 树 汇 总 生成 随机 森林 。 第 二 阶段 对 测 
试 集 进行 分 类 ,各 节点 中 所 有 决策 树 对 测试 集中 每 条 
样本 进行 投票 ,选择 判定 类 别 次 数 最 多 的 类 作为 最 终 
分 类 。 最 后 将 分 类 结果 保存 在 HDFS 上 。 在 文献 [38 ] 
的 基础 上 ,本 文 提出 的 并 行 随机 和 森林 算法 如 算法 4 所 
夏 : 
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63(4) :101 - 111. 
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算法 4 基于 Spark 的 并 行 随机 森林 算法 
输入 :数据 集 T 
1 从 HDFS 上 读 取 数 据 集 并 转化 为 RDD 
2 使 用 map 算 子 获得 情感 得 分 和 文本 向 量 
3 使 用 Tokenizer 算 子 将 文本 向 量 转 化 为 词 向 量 
4 计算 词 向 量 的 TF-IDF, 其 中 特征 数 设 为 3 000 
5 获取 标签 列 和 特征 列 并 进行 索引 ,得 到 预 处 理 
后 的 数据 集 
6 将 预 处 理 后 数据 集 随 机 划分 
练 .20% 用 于 测试 ,并 设 随机 数 为 0 
7 使 用 树 的 棵 树 为 10、 最 大 树 深 为 10 的 随机 森林 
类 器 对 训练 数据 拟 合 ,并 记录 训练 时 间 
8 使 用 训练 模型 对 测试 数据 预测 分 
RR 淮 确 率 、 召 回 率 及 Fl 值 
输出 :情感 分 析 结 果 
G35 并 行 支持 向 量 机 算法 “并 行 支持 向 量 机 训练 
如 下 。 在 文献 [39] 的 基础 上 ,首先 使 用 RDD 中 的 
xthile 函数 读 取 HDFS 中 的 数据 并 转换 为 RDD 数据 
类 型 ， 并 将 其 随机 切 分 为 合适 大 小 的 数据 块 。Map 操 
《格式 化 的 训练 数据 并 和 SVM 训练 ,repartition 函数 
东 结 果 进 行 整合 并 划分 本 次 输入 的 数据 块 ,不 断 
送 世 进行 SVM 训练 并 得 到 满足 条 件 的 全 局 最 优 支 持 
重 分 类 器 ,最 后 根据 生成 的 分 类 器 对 测试 数据 进行 
ea 
算法 5 基于 Spark 的 并 行 SVM 算法 
忆 输 入 :数据 集 T 
RD 
Cy 使 用 map 算 子 获得 情感 得 分 和 文本 向 量 
3 计算 文本 向 量 TF-IDF 值 
4 使 用 zip 算 子 将 TF-JDF 向 量 和 情 
转化 为 LabeledPoint 类 型 
5 将 转换 后 的 数据 集 随 机 划分 
练 .20% 用 于 测试 ,并 设 随 机 数 为 0 
6 使 用 最 大 迭代 步 长 为 1 000 的 支持 向 量 机 分 类 
器 对 训练 数据 拟 合 ,并 记录 训练 时 间 
7 使 用 训练 模型 对 测试 数据 预测 分 
度 、 准 确 率 、 召 回 率 及 下] 值 
输出 :情感 分 析 结 果 
3.4 参数 设置 
实验 预 处 理 阶段 ,选用 80% 数据 用 于 训练 .20% 
数据 用 于 预测 ,有 旦 同一 实验 重复 运行 3 次 ,以 生成 训练 
模型 所 需 时 间 平 均值 为 运行 时 间 。 在 参数 设置 方面 ， 
遵循 以 下 原则 ,一 是 可 用 性 , 即 参数 选择 使 得 模型 可 


,其 中 80% 用 于 训 


感 得 分 连接 并 


,其 中 80% 用 于 训 


用 ,并 具有 相对 较 好 的 分 类 效果 ;二 是 对 等 性 , 即 在 保 
证 算法 分 类 效果 的 前 提 下 ,使 算法 在 不 同 环境 (包括 传 
统 Skleam 环境 . 单 节 点 和 多 节点 环境 等 ) 下 的 参数 设 
置 尽 可 能 相近 ,以 便于 对 并 行 算法 分 类 效率 进行 有 效 
比较 。DT 算法 特征 数 设 为 3 000, 最 大 树 深 为 10;LR 
算法 迭代 步 长 为 1 000;NB 算法 特征 数 为 3 000 ,模型 
类 型 为 “multinomial”;RF 算法 特征 数 为 3 000 , 树 棵 数 
和 最 大 树 深 为 10;SVM 算法 迭代 步 长 为 1 000。 

3.5 评价 指标 

情感 分 析 算 法 的 评价 指标 由 效果 和 效率 两 方面 构 
成 。 分 类 效果 采用 精度 .准确 率 、 召 回 率 和 Fl 值 等 指 
标 。 分 类 效率 包括 运行 时 间 和 加 速 比 等 指标 。 

本 文中 ,运行 时 间 (Time) 衡 量 的 是 分 类 算法 生成 
训练 模型 所 需 时 间 ,加 速 比 (Speedup ) 是 衡量 在 单 节 点 
模式 下 和 并 行 模式 下 运行 同一 任务 所 耗费 的 时 间 的 比 
率 ,通过 改变 节点 数量 并 保持 数据 集 不 变 来 计算 加 速 
比 。T 代表 在 单 节点 上 分 类 算法 的 运行 时 间 ,T, 代表 
相同 数据 集 条 件 下 在 mm 个 节点 上 相同 算法 的 运行 时 
闻 ,如 果 加 速 比 随 着 节点 数量 的 增加 而 线性 增加 , 则 意 


味 着 多 个 节点 可 以 有 效 缩短 算法 的 运行 时 间 。 
Speedup = TAT, 


式 (1) 


实验 结果 与 讨论 
4.1 实验 数据 
海量 文本 情感 分 类 一 直 是 微 博 领域 宣 有 挑战 性 的 


话题 ,由 于 Twitter 发 文具 有 短篇 幅 的 特点 ,更 容易 表 
达 Twitter 用 户 的 情感 状态 。 本 文选 取 斯 坦 福 大 学 
Twitter 推 文 情感 数据 集 ““ 用 于 情感 分 析 , 主 要 基于 
以 下 考虑 。 

首先 ,该 数据 集 在 文本 情感 挖 气 、 社 交 网 络 分 析 中 
得 到 较 多 的 应 用 。 例 如 B. Heredia 等 (中 使 用 该 推 文 
数据 集 及 评论 数据 集 进行 跨 领 域 情感 挖 据 ; A. Goel 
等 ”在 研究 推 特 实时 情绪 分 析 中 使 用 该 数据 集训 练 


朴素 贝 叶 斯 模型 并 提出 分 类 准确 性 更 好 的 算法 ;M. 工 . 
Lima 等 “使 用 该 数据 集 作 为 语料库 ,通过 推 特 情绪 分 


析 进 行 股票 交易 预测 ;N，Friedrich 等 “从 该 数据 集中 
抽取 出 具有 代表 性 的 学 术 推 文 ,通过 分 析 情 绪 得 出 
Twitter 有 助 于 提高 学 术 交 流 与 传播 的 结论 。 

其 次 ,该 数据 集 能 够 划分 为 不 同 的 规模 。 由 于 本 
文 研究 的 重心 在 于 比较 不 同 环境 下 不 同 算 法 在 海量 短 
文本 情感 分 类 中 的 差异 ,考虑 到 数据 集 选 取 的 有 效 性 
前 提 下 ,能够 将 数据 集 划 分 为 不 同 规模 ,以 展开 情感 分 
析 的 规模 适 配 研究 。 


105 


图 二 情报 三 作 


第 63 卷 第 4 期 2019 年 2 月 


ChinaXiv 合 作 期 刊 


该 数据 集 包 含 1578 627 条 Twitter 推 文 ,每 条 推 文 
用 1 表示 积极 情绪 ,0 表示 消极 情绪 。 从 原始 数据 集 
中 分 别提 取出 13M .30M .75M 150M .300M 大 小 的 数 
据 ( 对 应 的 Twitter 条 数 分 别 为 16 万 .31 万 .78 万 、158 
万 和 316 万 ) ,用 于 研究 不 同 数据 规模 在 集群 环境 下 的 
情感 分 析 算法 间 的 差异 。 
4.2 实验 结果 

为 了 探究 大 数据 环境 下 情感 分 类 的 规模 适 配 问 
题 ,我 们 评估 5 种 传统 情感 分 析 算 法 (DT、LR、NB、RF、 
SVM) 及 相应 的 5 种 并 行情 感 分 析 算 法 ,在 传统 
Sklearn\ 单 节点 Spark 以 及 集群 Spark 环境 下 运行 效 
率 .正确 性 和 可 扩展 性 三 方面 表现 。 
4.2.1 运行 效率 ”实验 一 比较 5 ee 
韶 夭 点 Spark 和 集群 Spark 运行 效率 。 这 里 使 用 150M 
虹 入 数据 集 进行 实验 ， 传统 和 单 节点 se 均 采 用 4 核 
4@6s 行 环境 ， 集群 Spark 采用 3 个 4 核 4G 的 从 节点 ， 
上 险 数 据 由 HDFS 主 节 点 读 取 并 存储 。 图 2 展示 了 
二 运行 环境 的 分 类 算法 运行 时 间 差 异 : 


一 合 一 DT LR 一 全 一 NE 一 全 一 RF SVM 

500 

400 一 

300 > SS 

200 全 ~ 
名 

100 
| 

: 传统 单 节点 集群 
图 2 不 同 运行 环境 情感 分 析 算 法 运行 时 间 比 较 


.三 由 图 2 可 以 看 出 ,不 同 环境 下 分 类 算法 运行 效率 
由 斤 到 高 依次 为 : ;Spark 单 节点 方式 .传统 Skleam 方式 
和 pe 集群 方式 。Spark 单 节点 方式 比 传统 Sklearn 
方式 运行 时 间 更 长 ,主要 是 因为 单 节 点 Spark 采用 
Pyspark 模块 ,将 本 地 存储 数据 转换 为 RDD 形式 时 由 
于 资源 限制 会 耗费 大 量 时 间 , 而 传统 Sklearn 则 通过 
numpy 模块 直接 将 本 地 数据 存储 以 array 形式 进行 运 
算 ,故而 会 比 单 节 点 Spark 更 有 效率 。 集 群 Spark 比 传 
统 Sklearn 运行 时 间 更 短 , 耗 时 缩短 将 近 一 半 , 主要 是 
为 在 集群 模式 下 ,Spark 引入 弹性 分 布 式 数据 集 RDD 
将 中 间 数 据 存储 到 从 节点 内 存 中 ,由 于 不 同 操作 可 以 
直接 从 内 存 中 读 取 操作 结果 ,因此 相 较 于 传统 Sklearn 
可 以 明显 提升 机 器 学 习 算 法 迭代 性 能 和 数据 分 类 效 
4.2.2 正确 性 实验 二 比较 5 种 分 类 算法 在 传统 . 单 
节点 Spark 和 集群 Spark 中 的 正确 性 。 实 验 数据 采用 
150M 数据 集 ,正确 性 评估 的 指标 包括 精度 准确 率 、 召 
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回 率 和 综合 指标 FI 值 。 图 3 展示 了 不 同 运行 环境 分 
类 算法 了 1 值 用 于 比较 正确 性 差异 : 
一 含 -一 DT IR 一 人 一 NB 一 @ 一 FF SVM 
09 
过 08 二 
区 站 法 [1 从 ， 
> i 二 
时 05 
04 
传统 单 节点 集群 


3 不 同 运行 环境 情感 分 析 算 法 正确 性 比较 


由 图 3 可 以 看 出 , 除 DT、 SVM 算法 外 ,传统 Skleam 
方式 各 项 正确 性 指标 略 优 于 Spark 单 节 点 方式 和 Spark 
集群 方式 。 以 LR 算法 的 Pl 值 为 例 , 传 统 Skleam 达到 
0.801 9 ,而 单机 和 集群 分 别 为 0. 618 1.0.617 2, 这 主 
要 是 由 于 Sklearn 和 Pyspark 对 预测 数据 处 理 策 略 不 同 
造成 的 。 此 外 ,Spark 单 节点 方式 和 Spark 集群 方式 正 
确 性 非常 接近 ,说 明 对 于 Spark 而 言 , 从 单 节 点 模式 扩 
展 到 集群 模式 并 不 会 降低 分 类 准确 性 。 在 各 种 分 类 算 
法 中 ,分 类 正确 性 效果 最 好 的 是 NB 算法 ,其 Fl 值 分 
别 达到 0.715 3、0.717 3, 相 比 于 传统 Sklearn 的 SVM 
算法 ,其 Fl 值 提升 了 了 3% 左右 。 

4.2.3 可 扩展 性 ”实验 三 比较 集群 Spark 中 运行 时 间 
随从 节点 核 数 变化 情况 ,以 评估 集群 的 可 扩展 性 。 实 
验 数据 采用 150M 数据 集 ,同时 在 3 个 从 节点 条 件 下 ， 
以 处 理 器 核 数 为 可 变 因素 ,分 别 设 为 2 核 .4 核 .8 核 。 
这 里 图 4 展示 了 算法 运行 时 间 随 从 节点 核 数 变化 情 
况 : 


—@-— DT [LR 一 0 一 NE —@— Rr SVM 
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图 4 情感 分 析 算 法 运行 时 间 随 从 
处 理 器 核 数 变化 情况 图 


由 图 4 可 以 看 出 , 除 SVM 算法 运行 时 间 先 减少 后 
增加 外 ,其 余 四 种 分 类 算法 的 运行 时 间 随 核 数 增加 而 
减少 。 实 验 总 体 符 合 预期 假设 , 即 : 随 着 处 理 器 核 数 增 
加 ,集群 拥有 更 多 资源 用 于 任务 执行 ,必然 会 提高 整体 
运行 效率 ,表现 出 良好 的 可 扩展 性 。 此 外 ,不 同 分 类 算 
法 运行 时 间 具 有 一 定 的 差距 性 ,同时 随 着 处 理 器 核 数 
的 增加 ,运行 时 间 下 降 速率 非 线性 变化 ,因此 集群 环境 
中 4 核 比 8 核对 计算 的 资源 利用 率 更 高 。 从 各 种 算法 
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的 时 间 对 比 来 看 ,实验 中 表现 最 好 的 是 NB 算法 ,其 运 
行 时 间 分 别 为 33. 14s 、19. 59s 12. 12s, 少 于 其 他 四 种 
算法 。 

实验 四 比较 集群 Spark 中 运行 时 间 随 从 节点 个 数 
变化 情况 ,从 另 一 方面 评估 集群 的 可 扩展 性 。 同 样 采 
用 150M 数据 集 , 实 验 设 置 每 个 从 节点 为 4 核 , 以 从 节 
点 个 数 为 可 变 因素 ,分 别 设 为 3 个 4 个 SS 个 6 个 7 个 。 
图 5 展示 了 算法 运行 时 间 随 从 节点 个 数 变化 情况 : 
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5 情感 分 析 算法 运行 时 间 随 从 节点 个 数 变 化 情况 


LO 由 图 5 可 以 看 出 , 当 从 节点 个 数 增加 到 5 个 以 后 ， 
SW 和 LR 算法 的 运行 时 间 略 有 增加 ,而 DT NB 和 RF 
算 浅 的 运行 时 间 减 少 趋势 放 缓 , 这 表明 主 节点 与 多 个 
-6 数量 间 的 通信 时 间 是 制约 集群 可 扩展 性 的 因素 之 
各 相 比 于 实验 三 , 随 着 从 节点 个 数 增加 ,运行 时 间 的 
变 徐 趋势 减缓 ,说 明 从 节点 个 数 在 不 同 量 级 的 改变 对 
演 弹 有 一 定 的 影响 。 从 资源 利用 率 角度 来 看 ,各 分 类 
算 溪 在 5 个 从 节点 条 件 下 均 表现 出 良好 的 运行 效率 。 
成 逻 种 算法 的 时 间 对 比 来 看 ,表现 最 好 的 是 NB 算法 ， 
其 各行 时 间 分 别 为 19. 59s、14. 92s、12. 52s、11, 31s、 
958 贡 , 少 于 其 他 四 种 算法 。 
C) 实 验 五 比较 单 节点 和 集群 Spark 中 运行 时 间 随 数 
据 规模 变化 情况 ,以 评估 集群 的 可 扩展 性 。 实 验 数 据 
分 别 采 用 15M 30M .75M 、150M 和 300M 数据 集 , 单 节 
点 Spark 采用 4 核 4G 环境 ,集群 Spark 每 个 从 节点 配 
置 4 核 4G 环境 。 表 2 给 出 了 不 同 数据 规模 下 单 节 点 、 
多 种 从 节点 运行 时 间 比 较 结果 ,图 6、 图 7 分 别 展示 了 
单 节点 .5 个 从 节点 不 同 算法 的 运行 时 间 情 况 。 

从 表 2 可 以 看 出 , 随 着 数据 规模 的 增加 , 单 节点 运 
行 时 间 近 似 成 比例 增加 ,多 节点 中 除 SVM 算法 外 ,其 
余 算法 的 运行 时 间 也 呈现 按 比例 增加 的 现象 。 从 单 节 
点 运行 表现 来 看 ,NB 算法 运行 时 间 最 短 ,DTLR 和 RF 
三 种 算法 的 运行 时 间 变 化 趋势 较为 相似 ,而 SVM 算法 
随 用 的 运行 时 间 最 长 。 从 多 节点 运行 表现 来 看 , 当 数 
据 规模 在 15M 和 30M 时 ,采用 不 同 节点 的 同 种 分 类 算 
法 运行 时 间 没有 显著 差异 ,这 表明 Spark 集群 在 小 数 
据 集 上 并 没有 完全 利用 计算 资源 。 同 时 可 以 看 出 , 随 


表 2 不 同 数 据 规模 下 单 节点 、 多 种 从 节点 
运行 时 间 比 较 ( 时 间 :s) 


数据 规模 
环境 ”算法 
15M 30M 75M 150M 300M 
单 节点 DT 59.9096 97.8514 200.974 0 386.8613 730.5513 


LR 53.7937 62.3405 116.0347 345.057 8 654.236 6 
NB 7.8353 14.3769 33.8862 62.6839 125.8658 
RF 61.4524 98.7107 207.9156 374.2639 731.158 1 
SVM 73.5676 71.7206 144.051 0 366.063 0 793.221 1 
3 个 从 节点 DT 


LR 56.7836 66.0012 100.358 1 137.453 9 188.997 0 


41.2226 41.0658 68.8237 116.081 1 216.3619 


NB 5.588 1 6.4577 11.2310 19.5925 36.0115 
RF 42.9174 42.9177 69.7390 121.137 8 218.4452 
SVM 79.4159 87.3355 155.7263 144.6694 278.0276 
4 个 从 节点 DT 38.4205 37.6634 53.7237 91.6006 164.6319 
LR 55.7572 64.0940 97.8084 125.6444 170.2805 
NB 5.4145 6.008 5 9.0204 14.923 6 27.5380 
RF 39.4427 39.4737 54.9580 93.8603 176.519 0 
SVM 76.6451 84.9527 155.6097 137.9546 165.4763 
5 个 从 节点 DT 38.7140 38.7680 47.0899 76.0846 139.4781 
LR 55.3156 63.8454 92.8955 118.7697 155.1027 
NB 6.6424 5.9048 7.7461 12.5290 22.9752 
RF 40.2126 40.6607 50.9596 80.432 8 140.480 4 
SVM 76.9663 85.6327 154.9964 136.043 0 157.3888 
6 个 从 节点 DT 40.7546 38.3543 48.8304 69.1572 117.3099 
LR 56.0145 63.9117 90.7938 118.308 8 146.8472 
NB 5.8496 5.7239 7.1486 11.3164 20.6737 
RF 42.2932 41.9666 45.9276 70.4728 121.9093 
SVM 77.2890 86.8858 157.197 1 142.1847 159.8280 
7 个 从 节点 DT 


LR 57.4321 64.3235 91.4754 119.1475 141.4367 


44.4368 40.5030 42.3706 60.3943 103.7615 


NB 6.5773 5.653 2 6.7697 9.8433 17.898 2 


RF 41.8961 41.2723 44.7576 65.6399 108.283 8 
SVM 80.4169 87.548 9 156.4246 142.2866 163.2096 


着 从 节点 数量 的 增加 , 同 种 算法 的 运行 时 间 均 有 所 减 
少 , 而 增加 到 5 个 以 后 ,运行 时 间 减 少 的 趋势 变 慢 ,这 
表明 多 节点 运行 效率 受 节点 间 通 信和 时间 影响 。 不 同 节 
点 实验 中 ,NB 算法 运行 效率 最 高 。 

从 图 6 可 以 看 出 , 单 节点 情感 分 析 算 法 运行 时 间 
随 数据 规模 变 大 而 增加 。 当 数据 规模 小 于 75M 时 ,各 
种 分 类 算法 运行 时 间 增 加 较为 缓慢 ; 当 数 据 规模 增加 
到 75M 之 后 ,各 种 分 类 算法 运行 时 间 迅 速 增加 。 这 表 
明 在 处 理 大 规模 数据 集 分 类 时 , 单 节点 Spark 并 不 能 
有 效 发 挥 其 并 行 计 算 优势 。 此 外 , 随 着 数据 规模 的 增 
加 ,不 同 分 类 算法 间 的 运行 差异 进一步 加 大 , SVM 算 
法 运行 增加 时 间 最 多 ,而 NB 算法 运行 时 间 增 势 较 为 
平缓 , 且 运 行 时 间 最 短 。 这 表明 随 着 数据 规模 的 增加 ， 
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图 6 单 节点 情感 分 析 算 法 运行 时 间 


随 数据 规模 变化 情况 
情感 分 析 的 算法 的 选择 与 改进 变 得 更 加 重要 。 
一 合 一 DT IR 一 人 一 NE 一 全 一 RF SVM 


200 


15M 30M 75M 150M 300M 


i 
2 图 7 多 节点 情感 分 析 算 法 运行 时 间 
©O 随 数 据 规模 变化 情况 


由 图 7 可 以 看 出 ,在 五 个 多 节点 环境 下 , 随 着 数据 
移居 增 大 ,各 种 算法 运行 时 间 均 有 所 增加 ,特别 是 当 
疾 凡 集 增加 到 75M 以 后 ,运行 时 间 增 加 更 为 明显 ,这 
和 与 济 哈 预期 假设 相符 合 , 即 :数据 规模 是 影响 情感 分 类 
算 污 运行 效率 的 因素 之 一 , 且 数据 规模 越 大 ,分 类 时 间 
越 医 。 在 数据 规模 增 大 过 程 中 ,SVM 算法 运行 时 间 具 
肝 稳 定性 ,同时 在 所 有 分 类 算法 中 运行 效率 最 低 。 
相 琵 之 下 ,各 种 数据 规模 性 下 分 类 效率 最 高 的 均 为 NB 
1 大 ,其 运行 时 间 分 别 为 6.64s、5.90s、7.74s.、12.52s、 
22.97s, 少 于 其 他 算法 。 
由 图 8 可 以 看 出 , 随 着 数据 集 规模 增 大 ,各 种 算法 
运行 加 速 比 明显 增加 ,这 表明 Spark 集群 方式 在 处 理 
海量 情感 分 类 数据 时 比 Spark 单 节 点 方式 更 具有 优 
势 , 且 数 据 规模 越 大 ,加 速效 果 越 明显 。 同 时 可 以 看 
到 , 当 数据 集 小 于 75M 时 ,LR 和 SVM 算法 的 运行 加 束 
比 小 于 1 ,说 明 在 小 数据 上 这 两 种 算法 采用 集群 处 理 
并 没有 发 挥 其 计算 优势。 
4.3 讨论 

本 文 在 决策 树 (DT) 逻辑 斯 蒂 回归 (LR) 、 朴 素 贝 
叶 斯 (NB) .随机 森林 (RF) 和 支持 向 量 机 (SVM ) 的 基 
础 上 ,提出 了 并 行 决策 树 算法 、 并 行 逻辑 回归 算法 、 并 
行 朴素 贝 叶 斯 算法 、 并 行 随机 深 林 算法 和 并 行 支持 向 
量 机 算法 ,并 将 其 应 用 到 大 数据 环境 下 的 情感 分 析 实 
证 研究 中 。 在 上 述 实证 研究 中 ,以 下 问题 值得 讨论 与 
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图 8 情感 分 析 算 法 运行 加 速 比 
随 数据 规模 变化 情况 图 


关注 。 

首先 ,各 种 情感 分 析 算 法 在 不 同 的 运行 环境 下 ( 传 
统 Skleam 方式 .Spark 单 节点 方式 和 Spark 集群 方式 ) ， 
其 运行 效率 具有 明显 差异 。 相 比 Spark 单 节点 方式 和 
传统 Sklearn 方式 ,Spark 集群 方式 在 处 理 海 量 情感 分 
类 数据 时 更 具有 优势 , 且 在 数据 规模 越 大 的 情况 下 , 优 
势 越 明显 。 这 表明 ,在 大 数据 环境 下 展开 情感 分 析 研 
究 ,有 必要 采取 Spark 集群 方式 ,以 节省 时 间 和 提升 效 
率 。 

其 次 ,各 种 情感 分 析 算 法 在 不 同 运行 环境 下 ,其 运 

行 效 果 ( 包 括 正确 率 、 召 回 率 下 值 等 ) 具 有 显著 差异 。 
相 比 Spark 单 节点 方式 和 传统 Skleam 方式 ,Spark 集群 
方式 在 处 理 海量 情感 分 类 数据 时 并 不 能 显著 提升 情感 
分 析 的 准确 率 、 召 回 率 和 下 值 等 指标 。 相 反 地 ,对 于 多 
数 情感 分 析 算 法 而 言 , 当 从 传统 Skleam 方式 转换 到 
Spark 单 节点 方式 或 者 集群 方式 时 ,其 各 项 指标 均 有 所 
下 降 。 这 表明 ,在 大 数据 环境 下 展开 情感 分 析 研 究 ,如 
果 采 取 Spark 集群 方式 ,在 准确 率 、 召 回 率 和 了 工 值 等 情 
感 分 析 效 果 指 标 提 升 上 仍然 需要 做 大 量 工作 。 
再 次 ,在 集群 环境 下 , 随 着 节点 数 和 核 数 的 增加 ， 
集群 的 整体 运行 效率 呈现 变化 。 一 方面 , 随 着 节点 数 
和 处 理 右 核 数 的 增加 ,集群 拥有 更 多 资源 用 于 任务 执 
行 ,能 够 显著 提高 整体 运行 效率 ,表现 出 良好 的 可 扩展 
性 。 男 一 方面 , 随 着 节点 数 和 处 理 絮 核 数 的 增加 ,运行 
时 间 下 降 速率 呈现 非 线性 变化 ;换言之 ,在 节点 数 (处 
理 需 核 数 ) 达到 一 定 阔 值 以 后 ,情感 分 析 的 效率 提升 有 
所 减缓 。 在 实证 研究 中 ,上 述 国 值 的 选择 取决 于 数据 
量 的 大 小 。 在 本 文 对 应 的 数据 量 情况 下 , 当 核 数 设 为 
4 和 节点 数 设 为 5 时 ,能 够 通过 较 小 的 开销 来 获得 较 
高 的 效率 。 实 证 研究 表明 ,在 大 数据 环境 下 展开 情感 
分 析 研 究 时 ,并非 节 点 数 和 处 理 器 核 数 越 多 越 好 ;相反 
的 ,采取 与 特定 数据 规模 的 阀 值 最 为 接近 的 节点 数 和 
处 理 器 核 数 ,能 够 在 最 大 限度 方 省 系统 资源 的 情况 完 
成 情感 分 析 任 务 。 
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后 ,从 数据 量 大 小 来 看 , 当 数据 集 在 小 于 一 定 规 
模 时 ,并行 式 算法 的 运行 加 速 比 有 可 能 小 于 1, 表明 采 
用 并 行 式 算法 采用 集群 处 理 不 能 发 挥 其 计算 优势 ; 换 
言 之 , 当 情感 分 析 的 数据 规模 达到 一 定 程度 时 ,有 必要 
采取 并 行 式 情感 分 析 算 法 。 在 本 文 的 实证 研究 中 , 当 
数据 集 小 于 75M 时 ,多 数 情感 分 析 算 法 的 运行 加 速 比 
小 于 1, 表 明 采 用 集群 处 理 并 没有 发 挥 其 计算 优势 。 
上 述 实证 研究 表明 ,在 情感 分 析 研究 中 ,有 必要 对 数据 
量 的 大 小 进行 界定 , 当 数据 量 低 于 一 定 阔 值 时 ,采取 
Spark 集群 方式 ,并 不 能 发 挥 其 计算 优势 ;相反 的 ,反而 
会 浪费 大 量 的 系统 资源 。 在 这 种 情况 下 ,建议 采用 伟 
统 的 Skleam 方式 。 

总 的 来 说 ,本 文 的 规模 适 配 研究 基于 文本 情感 分 
析 这 一 具体 任务 而 提出 ,但 实证 研究 所 得 出 的 结论 并 
非 祝 限 在 文本 情感 分 析 这 一 领域 ,可 推广 到 与 大 规模 
文 洒 信息 处 理 相关 的 领域 ,包括 文本 分 类 、 产 品 推荐 、 
代 息 从 索 和 数据 挖 气 等 。 例 如 ,在 大 数据 环境 下 展开 
文 氏 分 类 或 产品 推荐 研究 时 ,可 以 采取 与 特定 数据 规 
模 的 阔 值 最 为 接近 的 节点 数 和 处 理 器 核 数 ,能 够 在 最 
北 限 度 节 省 系统 资源 的 情况 完成 任务 ;在 数据 量 大 于 
_ 殉 规模 时 , 则 有 必要 慎重 选择 并 行 式 分 类 或 推荐 算 
a 
作乱 说明 的 是 ,本 文 所 采用 的 Spark 虽然 具有 基于 内 
存 带 行 迭 代 计 算 的 优点 ,但 其 数据 分 区 能 力 有 限 ,各 台 
大 医 计算 任务 分 配 不 均 时 仍然 会 导致 负载 失衡 ,因此 
并 趴 适用 于 所 有 的 数据 规模 、 数 据 关 型 和 算法 。 本 文 
在 300 兆 文本 类 型 数据 上 对 五 种 算法 进行 了 验证 ,在 
后 狠 工 作 中 ,我 们 将 对 更 大 的 数据 规模 ,更 多 的 数据 类 
型 和 算法 进行 检验 ,以 进一步 探讨 规模 适 配 下 并 行 任 
务 分 配 和 算法 应 用 的 效果 。 


5 结语 


本 文 以 Twitter 数据 为 例 , 在 对 传统 情感 分 析 算法 

行 分 析 的 基础 上 ,提出 了 5 种 面向 大 数据 的 文本 情 
ee he 
的 效果 ,从 准确 性 、 可 扩展 性 和 效率 等 方面 进行 实证 比 
较 研 究 。 实 验 结果 表明 ,本文 所 搭建 的 集群 具有 良好 
的 运行 效率 .正确 性 以 及 可 扩展 性 ,Spark 集群 在 处 理 
海量 文本 情感 分 析 数 据 时 更 具有 效率 优势 , 且 在 数据 
规模 越 大 的 情况 下 ,效率 优势 越 明 显 ;在 资源 利用 方 
面 , 随 着 节点 数 和 核 数 的 增加 ,集群 的 整体 运行 效率 变 
显著 。 实 验 结果 表明 ,配置 5 个 4 核 4G 内 存 的 从 节 

点 ,能 够 实现 在 高 效 完成 分 类 任务 的 同时 达到 节约 资 


源 成 本 的 效果 。 

本 文 的 不 足 之 处 在 于 :中 实验 数据 集 较为 单一 ,在 
后 续 工 作 中 ,我 们 将 采用 更 多 样 的 数据 集 对 情感 分 析 
的 规模 适 配 问题 进行 更 为 深入 的 研究 ; 包 在 资源 配置 
方面 ,对 子 广 点 核 数 个 数 进行 不 同 量 级 扩充 ,以 进 一 
步 探 究 大 规模 集群 环境 下 不 同情 感 分 析 算 法 的 最 优 资 
源 配置 策略 ;3 对 领域 与 语言 变化 情境 下 的 规模 适 配 
问题 进行 扩展 研究 。 
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Research on Scale Adaptation of Text Sentiment Analysis Algorithm 
in Big Data Environment: Using Twitter as Data Source 
Yu Chuanming' Yuan Sai” Wang Feng An Lu 
! School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430073 
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Abstract: [Purpose/significance | This paper aims to study the scale adaptation problem for the purpose of textual 
sentiment analysis in big data environment. The paper provides reference for the best choice between efficiency and cost 
when researchers in the field of information science carry out data analysis under big data environment. [ Method/ 
process ] We use the Sentiment140 dataset of Stanford University. Based on the analysis of traditional sentiment analysis 
algorithms, we propose five textual sentiment analysis algorithms for big data to test the adaptation effectiveness of various 
algorithms under different environments and data sizes, and conduct empirical comparisons in terms of accuracy, scalabili- 


tyTWRd efficiency. [ Result/conclusion | The experimental results show that the cluster built in this paper has good opera- 


] efficiency, correctness, and scalability. Spark clusters have more efficiency advantages in processing large -scale text 
ent analysis data, and with increasing the data size, its efficiency advantage is more obvious. In resource utiliza- 
5 as the number of nodes and cores increase, the overall operating efficiency of the cluster changes significantly. We 
GD he configuration of five slave nodes with 4 cores and 4G memory can achieve the effect of saving resource costs while 


efieienty completing the classification task. 


eyWords: scale adaptation big data massive text sentiment analysis machine learning algorithm 


Ot 
关于 在 学 术 论文 署名 中 常见 问题 或 错误 的 诚信 提醒 

守 科研 道德 是 从 事 科技 工作 的 基本 准则 ,是 履行 党 和 人 民 所 赋予 的 科技 创新 使 命 的 基本 要 求 。 中 国 科学 院 科研 道德 委员 
日 常 科研 不 端 行为 举报 中 发 现 的 突出 问题 ,总 结 当前 学 术 论文 署名 中 的 常见 问题 和 错误 ,予以 提醒 ,倡导 在 科研 实 


守信 行为 ,努力 营造 良好 的 科研 生态 。 
提醒 一 :论文 署名 不 完整 或 者 夹带 署名 。 应 遵循 学 术 惯 例 和 期 刊 要求 ,坚持 对 参与 科研 实践 过 程 并 做 出 实质 性 贡献 的 学 者 进 


mm 人 mm mm ~~ 


”三 行署 名 ,反对 进行 荣誉 性 、 a st 
1 () 提醒 二 :论文 署名 排 请 。 按 照 学 术 发 表 惯 例 或 期 刊 要求 , 体 现 作者 对 论文 贡献 程度 ,由 论文 作者 共同 确定 署名 顺序 。 反 
) ”对 在 同行 评议 后 .论文 发 表 育 re 贰 序 。 部 分 学 科 领 域 不 采取 以 贡献 度 确定 署名 排序 的 ,从 其 规定 。 
: 提醒 三 :第 一 作者 或 通讯 作者 数量 过 多 。 应 依据 作者 的 实质 性 贡献 进行 署名 ,避免 第 一 作者 或 通讯 作者 数量 过 多 ,在 同行 中 
; 产生 歧义 。 
] 提醒 四 : 冒 用 作者 署名 。 在 学 者 不 知情 的 情况 下 , 冒 用 其 姓名 作为 署名 作者 。 论 文 发 表 前 应 让 每 一 位 作者 知情 同意 ,每 一 位 
作者 应 对 论文 发 表 具 有 知情 权 ,并 认可 论文 的 基本 学 术 观 点 。 
提醒 五 :未 利用 标注 等 手段 ,声明 应 该 公开 的 相关 利益 冲突 问题 。 应 根据 国际 惯例 和 相关 标准 ,提供 利益 冲突 的 公开 声明 。 


如 资金 资助 来 源 和 研究 内 容 是 否 存在 利益 关联 等 。 
提醒 六 :未 充分 使 用 志 ( 致 ) 谢 方式 表现 其 他 参与 科研 工作 人 员 的 贡献 ,造成 知识 产权 纠纷 和 科研 道德 纠纷 。 
提醒 上 :未 正确 里 名 所 属 机 构 。 作 者 机 构 的 署名 应 为 论文 工作 主要 完成 机 构 的 名 称 ,反对 因 作者 所 属 机 构 变 化 ,而 不 恰当 地 
使 用 变更 后 的 机 构 名 称 。 
提醒 八 :作者 不 使 用 其 所 属 单位 的 联系 方式 作为 自己 的 联系 方式 。 不 建议 使 用 公众 邮箱 等 社会 通讯 方式 作为 作者 的 联系 方式 。 


we 人 ww 人 人 人 人 人 


mm mm 


提醒 九 : 未 引用 重要 文献 。 作 者 应 全 面 系统 了 解 本 科研 工作 的 前 人 工作 基础 和 直接 相关 的 重要 文献 ,并 确信 对 本 领域 代表 性 

4 文献 没有 遗漏。 

1 提醒 十 :在 论文 发 表 后 ,如 果 发 现 文章 的 缺陷 或 相关 研究 过 程 中 有 违背 科研 规范 的 行为 ,作者 应 主动 声明 更 正 或 要 求 撤回 稿件 。 《 
: 院 属 各 单位 应 根据 以 上 提醒 ,结合 本 单位 学 科 特 点 和 学 术 惯 例 , 对 科研 人 员 进 行 必 要 的 教育 培训 ,让 每 一 位 科研 工作 者 对 学 | 
4 术 论 文 署名 保持 高 度 的 责任 心 ,珍惜 学 术 荣 誉 .抵制 学 术 不 端 行为 ,将 科研 诚信 贯穿 于 学 术 生涯 始终 。 ' 
] 来 源 :中 国 科学 院 监督 与 审计 局 人 
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